[まるクラ勉強会 ONLINE #1] 20分で大体わかる!AWS Glue Data Qualityによるデータ品質検査
データアナリティクス事業本部インテグレーション部コンサルティングチーム・新納(にいの)です。
2024/1/29(月)に開催されたまるクラ勉強会 ONLINE #1にて、「20分で大体わかる!AWS Glue Data Qualityによるデータ品質検査」というタイトルで登壇しました。ご参加いただいた方、ありがとうございました!
セッション資料を公開させていただきます。
セッション資料
動画
スライド
資料内の「実際の操作はこんな感じ」の次に真っ黒なスライドがありますが、こちらはセッション内で使用した操作画面の動画です。上記のセッション動画で操作画面をご覧ください。
3行まとめ
- 2023年に一般公開されたAWS Glue Data Qualityでは、サーバーレスでAWSマネージドな環境という取り組みやすい環境でデータ品質検査ができます
- データレイクやデータウェアハウスに投入する前や後、変換を実施した後など、いろんなタイミングでデータ品質検査ができます
- 2023年11月に発表されたプレビュー機能では、過去データと比較してデータの変化の傾向を把握できるようになりました
セッション中にいただいた質問
「過去のデータと比較して変化を検知」ってどれぐらい過去のデータとかを学習したりしてるんだろう
2023年11月にプレビュー機能としてリリースされたGlue Data Qualityの異常検出と動的ルールについてのご質問ですね。
この機能は過去のデータと比較してデータの変化を検知してくれるような機能です。過去に実行された際のパターンではcountryカラムには"USA"しか入ってきていないけれど、最新のデータに"JAN"や"GER"などが入ってきた場合、変化を異常として検知するのではなく、データの変化の傾向を把握できるようにグラフなどで確認できます。
この機能は過去のデータと比較するため、機能を有効にして3回実行することで統計情報を確認できるようになります。公式ドキュメントには統計値は長期的に収集されるという記載はありましたが、期間は明言されていません。
最後に
今回のセッションではGlueの機能群に2023年に仲間入りしたData Qualityとユースケースについてお話ししました。AWSマネージドサービスなので他のサービスと組み合わせて通知させたり、Step Functionsなどのワークフローに組み込めるのも利点の一つです。プレビュー機能ではありますが動的な変化の検知にも対応し、なにかと便利に使えそうです。
改めまして、勉強会にご参加いただいた方、本当にありがとうございました!